% Version control information:
%$HeadURL: http://practicas-statgraphics.googlecode.com/svn/trunk/intervalos_confianza_2_muestras/intervalos_confianza_2_muestras.tex $
%$LastChangedDate: 2009-10-26 19:27:03 +0000 (Mon, 26 Oct 2009) $
%$LastChangedRevision: 10 $
%$LastChangedBy: asalber $
%$Id: intervalos_confianza_2_muestras.tex 10 2009-10-26 19:27:03Z asalber $

\chapter[Intervalos de Confianza para Comparación de Poblaciones]{Intervalos de Confianza para \\ Comparación de Poblaciones}

\section{Fundamentos teóricos}

\subsection{Inferencia Estadística y Estimación de Parámetros}
El objetivo de un estudio estadístico es doble: describir la muestra
elegida de una población en la que se quiere estudiar alguna
característica, y realizar inferencias, es decir, sacar conclusiones
y hacer predicciones sobre la población de la que se ha extraído
dicha muestra.

La metodología que conduce a obtener conclusiones sobre la
población, basadas en la información contenida en la
muestra, constituye la \emph{Inferencia Estadística}.

Puesto que la muestra contiene menos información que la población,
las predicciones serán aproximadas. Por eso, uno de los objetivos de
la inferencia estadística es determinar la probabilidad de que una
conclusión obtenida a partir del análisis de una muestra sea cierta,
y para ello se apoya en la teoría de la probabilidad.

Cuando se desea conocer el valor de alguno de los parámetros de la
población, el procedimiento a utilizar es la \emph{Estimación de
Parámetros, }que a su vez se divide en \emph{Estimación Puntual},
cuando se da un único valor como estimación del parámetro
poblacional considerado, y \emph{Estimación por Intervalos}, cuando
interesa conocer no sólo un valor aproximado del parámetro sino
también la precisión de la estimación. En este último caso el
resultado es un intervalo, dentro del cual estará, con una cierta
confianza, el verdadero valor del parámetro poblacional. A este
intervalo se le denomina \emph{intervalo de confianza}. A diferencia
de la estimación puntual, en la que se utiliza un único estimador,
en la estimación por intervalo emplearemos dos estimadores, uno para
cada extremo del intervalo.

\subsection{Intervalos de Confianza}
Dados dos estadísticos muestrales $L_1$ y $L_2$, se dice que el
intervalo $I=(L_1,\ L_2)$ es un \emph{Intervalo de Confianza} para
un parámetro poblacional $\theta$, con \emph{nivel de confianza}
$1-\alpha$ (o \emph{nivel de significación} $\alpha $), si la
probabilidad de que los estadísticos que determinan los límites del
intervalo tomen valores tales que $\theta$ esté comprendido entre
ellos, es igual a $1-\alpha$, es decir,
\[
P\left( L_{1}<\theta <L_{2}\right) =1-\alpha
\]

Los extremos del intervalo son variables aleatorias cuyos valores
dependen de la muestra considerada. Es decir, los extremos
inferior y superior del intervalo serían $L_{1}\left(
X_{1},...,X_{n}\right) $ y $L_{2}\left(
X_{1},...,X_{n}\right) $ respectivamente, aunque habitualmente escribiremos $%
L_{1}$ y $L_{2}$ para simplificar la notación. Designaremos mediante $%
l_{1}$ y $l_{2}$ los valores que toman dichas variables para una
muestra determinada $\left( x_{1},...,x_{n}\right) .$

Cuando en la definición se dice que la probabilidad de que el
parámetro $\theta $ esté en el intervalo $\left( L_{1},\
L_{2}\right) $ es $1-\alpha $, quiere decir que en el $100 \left(
1-\alpha \right) \ \% $ de las posibles muestras, el valor de
$\theta $ estaría en los correspondientes intervalos $\left( l_{1},\
l_{2}\right) .$

Una vez que se tiene una muestra, y a partir de ella se determina el
intervalo correspondiente $\left( l_{1},\ l_{2}\right) $, no tendría
sentido hablar de la probabilidad de que el parámetro $\theta $ esté
en el intervalo $\left( l_{1},\ l_{2}\right) $, pues al ser $l_{1}$
y $l_{2}$ números, el parámetro $\theta $, que también es un número,
aunque desconocido, estará o no estará en dicho intervalo, y por
ello hablamos de confianza en lugar de probabilidad.

Así, cuando hablemos de un intervalo de confianza para el parámetro
 $\theta $ con nivel de confianza $1-\alpha $, entenderemos que
antes de tomar una muestra, hay una probabilidad $1-\alpha $ de
que el intervalo que se construya a partir de ella, contenga el
valor del parámetro $\theta .$

Cuando se realiza la estimación de un parámetro mediante un
intervalo de confianza, el nivel de confianza se suele fijar a
niveles altos (los más habituales son $0.90$, $0.95$ ó $0.99$), para
tener una alta confianza de que el parámetro está dentro del
intervalo. Por otro lado, también interesa que la amplitud del
intervalo sea pequeña para delimitar con precisión el valor del
parámetro poblacional (esta amplitud del intervalo se conoce como
\emph{imprecisión} de la estimación). Pero a partir de una muestra,
cuanto mayor sea el nivel de confianza deseado, mayor amplitud
tendrá el intervalo y mayor imprecisión la estimación, y si se
impone que la estimación sea más precisa (menor imprecisión), el
nivel de confianza correspondiente será más pequeño. Por
consiguiente, hay que llegar a una solución de compromiso entre el
nivel de confianza y la precisión de la estimación. No obstante, si
con la muestra disponible no es posible obtener un intervalo de
amplitud suficientemente pequeña (imprecisión pequeña) con un nivel
de confianza aceptable, hay que emplear una muestra de mayor tamaño.
Al aumentar el tamaño muestral se consiguen intervalos de menor
amplitud sin disminuir el nivel de confianza, o niveles de confianza
más altos manteniendo la amplitud.

\subsubsection{Intervalos de confianza para la la diferencia de medias}

De igual manera a como ocurría con los intervalos de confianza para
la media de una variable, apoyándose en conclusiones extraídas del
Teorema Central del Límite se puede demostrar que, en muestras
grandes ($n_1\geq30$ y $n_2\geq30$), procedentes de poblaciones de
dos variables $X_1$ y $X_2$, con distribuciones no necesariamente
Normales, de medias $\mu _{1}$ y $\mu _{2}$ y desviaciones típicas
$\sigma_{1}$ y $\sigma_{2}$ respectivamente, la variable
\[Z=
\dfrac{\left( \overline{X}%
_{1}-\overline{X}_{2}\right) -(\mu _{1}-\mu
_{2})}{\sqrt{\dfrac{\sigma _{1}^{2}}{n_{1}}+\dfrac{\sigma
_{2}^{2}}{n_{2}}}}
\]
sigue una distribución Normal tipificada, $N(0,\ 1)$.

De igual manera, si las varianzas de las variables son desconocidas,
utilizando como estimadores muestrales sus correspondientes
cuasivarianzas $S^2_{1,n_{1}-1}$ y $S^2_{2,n_{2}-1}$, donde
\[
S_{1,n_{1}-1}^{2}=%
\dfrac{\sum \left( x_{1,i}-\overline{x}_{1}\right) ^{2}}{n_{1}-1}
\quad \textrm{y} \quad
S_{2,n_{2}-1}^{2}=%
\dfrac{\sum \left( x_{2,i}-\overline{x}_{2}\right) ^{2}}{n_{2}-1}
\]
entonces la variable
\[T=
\dfrac{\left( \overline{X}_{1}-\overline{X}%
_{2}\right) -(\mu _{1}-\mu _{2})}{\sqrt{\dfrac{S_{1,n_{1}-1}^{2}}{n_{1}}+%
\dfrac{S_{2,n_{2}-1}^{2}}{n_{2}}}}
\]
sigue una distribución $t$ de Student, en la que el número de
grados de libertad dependerá de si las varianzas, aún siendo
desconocidas, pueden considerarse iguales o no.

Para muestras pequeñas ($n_1<30$ ó $n_2<30$), las distribuciones
anteriores son también aplicables siempre que las variables de
partida sigan distribuciones Normales.

A partir de todo ello y teniendo en cuenta los tres factores de
clasificación comentados: si las poblaciones de partida en las que
obtenemos las muestras siguen o no distribuciones Normales, si las
varianzas de dichas poblaciones son conocidas o desconocidas, y si
la muestras son grandes o no, obtenemos las siguientes expresiones
correspondientes a los diferentes intervalos de confianza.


\subsubsection {Intervalo de confianza para la diferencia de dos
medias en poblaciones normales, con varianzas poblacionales
conocidas, independientemente del tamaño de la muestra}

\[
\left( \overline{x}_{1}-\overline{x}_{2}-z_{\alpha /2}\cdot \sqrt{\dfrac{%
\sigma _{1}^{2}}{n_{1}}+\dfrac{\sigma _{2}^{2}}{n_{2}}}\ ,\ \overline{x}_{1}-%
\overline{x}_{2}+z_{\alpha /2}\cdot \sqrt{\dfrac{\sigma _{1}^{2}}{n_{1}}+%
\dfrac{\sigma _{2}^{2}}{n_{2}}}\right)
\]

En la figura~\ref{intervalodiferencia} aparece un esquema explicativo de la construcción de este intervalo.

\begin{figure}[h!]
\begin{center}
\scalebox{0.8}{\input{intervalos_confianza_2_muestras/img/calculo_intervalo_confianza_diferencia_medias}}
\caption{Cálculo del intervalo de confianza para la diferencia de medias en poblaciones normales con varianzas conocidas a partir de la distribución de la diferencia de medias muestrales $\bar{x_1}-\bar{x_2}\sim N(\mu_1-\mu_2,\sqrt{\frac{\sigma_1}{n_1}+\frac{\sigma_2}{n_2}})$.}
\label{intervalodiferencia}
\end{center}
\end{figure}

\subsubsection {Intervalo de confianza para la diferencia de dos
medias en poblaciones normales, con varianzas poblacionales
desconocidas, independientemente del tamaño de la muestra}


Si aún siendo desconocidas, las varianzas pueden considerarse
iguales, el intervalo es:

\[
\left( \overline{x}_{1}-\overline{x}_{2}-t_{\alpha
/2}^{n_{1}+n_{2}-2}\cdot
\sqrt{s_{p}^{2}\left( \dfrac{1}{n_{1}}+\dfrac{1}{n_{2}}\right) }\ ,\ \overline{%
x}_{1}-\overline{x}_{2}+t_{\alpha /2}^{n_{1}+n_{2}-2}\cdot \sqrt{%
s_{p}^{2}\left( \dfrac{1}{n_{1}}+\dfrac{1}{n_{2}}\right) }\right)
\]
donde $s_{p}^{2}$ es una cuasivarianza ponderada:

\[
s_{p}^{2}=\dfrac{\left( n_{1}-1\right) \cdot
s_{1,n_{1}-1}^{2}+\left( n_{2}-1\right) \cdot
s_{2,n_{2}-1}^{2}}{n_{1}+n_{2}-2}
\]

Si las varianzas, desconocidas, no pueden considerarse como
iguales, el intervalo es:

\[
\left( \overline{x}_{1}-\overline{x}_{2}-t_{\alpha /2}^{\nu }\cdot \sqrt{%
\dfrac{s_{1,n_{1}-1}^{2}}{n_{1}}+\dfrac{s_{2,n_{2}-1}^{2}}{n_{2}}}\ ,\
\overline{x}_{1}-\overline{x}_{2}+t_{\alpha /2}^{\nu }\cdot \sqrt{\dfrac{%
s_{1,n_{1}-1}^{2}}{n_{1}}+\dfrac{s_{2,n_{2}-1}^{2}}{n_{2}}}\right)
\]
donde $\nu$ es el número entero más proximo al valor de la
expresión:

\[
\dfrac{\left( \dfrac{s_{1,n_{1}-1}^{2}}{n_{1}}+\dfrac{s_{2,n_{2}-1}^{2}}{%
n_{2}}\right) ^{2}}{\dfrac{\left(
\dfrac{s_{1,n_{1}-1}^{2}}{n_{1}}\right)
^{2}}{n_{1}+1}+\dfrac{\left( \dfrac{s_{2,n_{2}-1}^{2}}{n_{2}}\right) ^{2}}{%
n_{2}+1}}-2
\]

Si los tamaños muestrales son grandes ($n_{1}\geq30$ y
$n_{2}\geq30$) las $t_{\alpha /2}^{\nu}$ y $t_{\alpha
/2}^{n_{1}+n_{2}-2}$ pueden sustituirse por $z_{\alpha/2}$.

\subsubsection {Intervalo de confianza para la diferencia de dos
medias en poblaciones no normales, y muestras grandes
($n_{1}\geq30$ y $n_{2}\geq30$)}


En este caso, como ya sucedía con la media muestral, los
intervalos para la diferencia de medias son los mismos que sus
correspondientes en poblaciones normales y, de nuevo, habría que
distinguir si las varianzas son conocidas o desconocidas (iguales
o diferentes), lo cual se traduce en que sus correspondientes
fórmulas son las mismas que las dadas en los párrafos anteriores.
No obstante, por tratarse de muestras grandes, también es válida
la aproximación de $t_{\alpha /2}^{\nu}$ y $t_{\alpha
/2}^{n_{1}+n_{2}-2}$ por $z_{\alpha/2}$, y habitualmente tan sólo
se distingue entre varianzas conocidas y desconocidas.

Para varianzas conocidas:
\[
\left( \overline{x}_{1}-\overline{x}_{2}-z_{\alpha /2}\cdot \sqrt{\dfrac{%
\sigma _{1}^{2}}{n_{1}}+\dfrac{\sigma _{2}^{2}}{n_{2}}}\ ,\ \overline{x}_{1}-%
\overline{x}_{2}+z_{\alpha /2}\cdot \sqrt{\dfrac{\sigma _{1}^{2}}{n_{1}}+%
\dfrac{\sigma _{2}^{2}}{n_{2}}}\right)
\]

Y para varianzas desconocidas:
\[
\left( \overline{x}_{1}-\overline{x}_{2}-z_{\alpha /2}\cdot \sqrt{%
\dfrac{s_{1,n_{1}-1}^{2}}{n_{1}}+\dfrac{s_{2,n_{2}-1}^{2}}{n_{2}}}\ ,\
\overline{x}_{1}-\overline{x}_{2}+z_{\alpha /2}\cdot \sqrt{\dfrac{%
s_{1,n_{1}-1}^{2}}{n_{1}}+\dfrac{s_{2,n_{2}-1}^{2}}{n_{2}}}\right)
\]

Si las poblaciones de partida no son normales y las muestras son
pequeñas, no puede aplicarse el Teorema Central de Límite y no se
obtienen intervalos de confianza para la diferencia de medias.

Para cualquiera de los anteriores intervalos:
\begin{quote}
$n_{1}$ y $n_{2}$ son los tamaños muestrales.

$\overline{x}_{1}$ y $\overline{x}_{2}$ son las medias muestrales.

$\sigma_{1} $ y $\sigma_{2} $ son las desviaciones típicas
poblacionales.

$s_{1,n_{1}-1}$ y $s_{2,n_{2}-1}$ son las cuasidesviaciones típicas muestrales: $s_{1,n_{1}-1}^{2}=%
\dfrac{\sum \left( x_{1,i}-\overline{x}_{1}\right) ^{2}}{n_{1}-1}
$, y análogamente $s_{2,n_{2}-1}^{2}$.

$z_{\alpha /2}$ es el valor que deja a su derecha una probabilidad
$\alpha /2 $ en una distribución Normal tipificada.

$t_{\alpha /2}^{n_{1}+n_{2}-1}$ es el valor que deja a su derecha una probabilidad $%
\alpha /2$ en una distribución $t$ de Student con
$n_{1}+n_{2}-1$ grados de libertad.

$t_{\alpha /2}^{\nu}$ es el valor que deja a su derecha una probabilidad $%
\alpha /2$ en una distribución $t$ de Student con $\nu$ grados
de libertad.
\end{quote}

\subsubsection {Intervalos de confianza para la media de la diferencia en datos emparejados}
En muchas ocasiones hay que estudiar una característica en una
población en dos momentos distintos, para estudiar cómo
evoluciona con el tiempo, o para analizar la incidencia de
algún hecho ocurrido entre dichos momentos.

En estos casos se toma una muestra aleatoria de la población y
en cada individuo de la misma se observa la característica
objeto de estudio en los dos momentos citados. Así se tienen
dos conjuntos de datos que no son independientes, pues los datos
están emparejados para cada individuo. Por consiguiente, no se
pueden aplicar los procedimientos vistos anteriormente, ya que se
basan en la independencia de las muestras.

El problema se resuelve tomando para cada individuo la diferencia
entre ambas observaciones. Así, la construcción del intervalo de
confianza para la diferencia de medias, se reduce a calcular el
intervalo de confianza para la media de la variable diferencia.
Además, si cada conjunto de observaciones sigue una distribución
Normal, su diferencia también seguirá una distribución Normal.

\subsubsection {Intervalos de confianza para la diferencia de dos
 proporciones poblacionales $p_1$ y $p_2$}

Para muestras grandes ($n_1\geq30~$ y $n_2\geq30~$) y valores de
$p_1$ y $p_2$ (probabilidad de ``éxito'') cercanos a $0.5$, las
correspondientes distribuciones Binomiales pueden aproximarse
mediante distribuciones Normales de medias respectivas $n_1p_1$ y
$n_2p_2$, y desviaciones típicas respectivas $\sqrt {n_1p_1(1-p_1)}$
y $\sqrt {n_2p_2(1-p_2)}$. En la práctica, para que sea válida dicha
aproximación, se toma el criterio de que tanto $n_1p_1$ y $n_2p_2$
como $n_1(1-p_1)$ y $n_2(1-p_2)$ deben ser mayores que 5. Lo
anterior hace que también podamos construir intervalos de confianza
para la diferencia de proporciones tomando éstas como medias de
variables dicotómicas en las que la presencia o ausencia de la
característica objeto de estudio (``éxito'' ó ``fracaso'') se
expresan mediante un 1 ó un 0 respectivamente.

De este modo, en muestras grandes y con distribuciones Binomiales no
excesivamente asimétricas (tanto $n_1p_1$ y $n_2p_2$ como
$n_1(1-p_1)$ y $n_2(1-p_2)$ deben ser mayores que 5), si denominamos
$\widehat{p}_1$ y $\widehat{p}_2$ a la proporción de individuos que
presentan el atributo estudiado en la primera y segunda muestras
respectivamente, entonces el intervalo de confianza para la
diferencia de proporciones con un nivel de significación $\alpha$
viene dado por:

\[
\left(
\begin{array}{c}
\widehat{p}_{1}-\widehat{p}_{2}-z_{\alpha /2}\cdot \sqrt{\dfrac{\widehat{p}%
_{1}\cdot (1-\widehat{p}_{1})}{n_{1}}+\dfrac{\widehat{p}_{2}\cdot (1-%
\widehat{p}_{2})}{n_{2}}}\ , \,
\ \widehat{p}_{1}-\widehat{p}_{2}+z_{\alpha /2}\cdot \sqrt{\dfrac{\widehat{p}%
_{1}\cdot (1-\widehat{p}_{1})}{n_{1}}+\dfrac{\widehat{p}_{2}\cdot (1-%
\widehat{p}_{2})}{n_{2}}}
\end{array}
\right)
\]
donde:
\begin{quote}
$n_1$ y $n_2$ son los respectivos tamaños muestrales.

$\widehat{p_1}$ y $\widehat{p_2}$ son las proporciones de
individuos que presentan los atributos estudiados en sus
respectivas muestras.

$z_{\alpha /2}$ es el valor que deja a su derecha una probabilidad
$\alpha /2 $ en una distribución Normal tipificada.
\end{quote}

En muestras pequeñas o procedentes de unas distribuciones Binomiales
fuertemente asimétricas ($n_1p_1\leq 5$, $n_2p_2\leq 5$,
$n_1(1-p_1)\leq 5$ ó $n_2(1-p_2)\leq 5$) no puede aplicarse el
Teorema Central del Límite y la construcción de intervalos de
confianza debe realizarse basándose en la distribución Binomial.

\subsubsection{Intervalo de Confianza para la Razón de dos Varianzas $%
\sigma _{1}^{2}$ y $\sigma _{2}^{2}$ de Poblaciones Normales}

Como ya hemos visto en la sección de los intervalos de confianza
para la diferencia de dos medias en poblaciones normales con
varianzas desconocidas, los mismos dependen de si las varianzas, aún
siendo desconocidas, pueden considerarse iguales o no. Para dar
respuesta a esta cuestión, previa al cálculo del intervalo para la
diferencia de medias, se construye un intervalo para la razón
(cociente) de varianzas de ambas poblaciones. Para ello tenemos en
cuenta que si partimos de dos variables $X_{1}$ y $X_{2}$ que siguen
distribuciones normales con varianzas $\sigma _{1}^{2}$ y $\sigma
_{2}^{2}$ respectivamente, y tomamos muestras de tamaños $n_{1}$ y
$n_{2}$ de las respectivas poblaciones se tiene que la variable
\[F=
\dfrac{\dfrac{S_{1,n_{1}-1}^{2}}{\sigma _{1}^{2}}}{\dfrac{%
S_{2,n_{2}-1}^{2}}{\sigma _{2}^{2}}}
\]
sigue una distribución $F$ de Fisher de $n_{1}-1$ grados de
libertad en el numerador y $n_{2}-1$ grados de libertad en el
denominador.

De lo anterior se deduce que el intervalo de confianza con nivel
de significación $\alpha$ para $\dfrac{\sigma
_{2}^{2}}{\sigma _{1}^{2}}$ es

\[
\left( \dfrac{s_{2,n_{2}-1}^{2}}{s_{1,n_{1}-1}^{2}}\cdot
F_{1-\alpha
/2}^{\left( n_{1}-1,n_{2}-1\right) },\ \dfrac{s_{2,n_{2}-1}^{2}}{%
s_{1,n_{1}-1}^{2}}\cdot F_{\alpha /2}^{\left(
n_{1}-1,n_{2}-1\right) }\right)
\]

Si dentro del intervalo de confianza obtenido está el número 1 (el
cociente de varianzas vale la unidad), no habrá, por tanto,
evidencia estadística suficiente, con un nivel de significación
$\alpha ,$ para rechazar que las varianzas sean iguales.

\clearpage
\newpage


\section{Ejercicios prácticos}

\begin{enumerate}[leftmargin=*]

\item  Para ver si una campaña de publicidad sobre un
fármaco ha influido en sus ventas, se tomó una muestra de ocho
farmacias y se midió el número de unidades de dicho fármaco vendidas
durante un mes, antes y después de la campaña, obteniéndose los
siguientes resultados:
\[
\begin{tabular}{|c||c|c|c|c|c|c|c|c|}
\hline Antes & 147 & 163 & 121 & 205 & 132 & 190 & 176 & 147 \\
\hline Después & 150 & 171 & 132 & 208 & 141 & 184 & 182 & 145
\\ \hline
\end{tabular}
\]

\begin {enumerate}
\item Crear las variables \variable{Antes} y \variable{Después} e
introducir los datos de la muestra.

\item Obtener un resumen estadístico en el que aparezcan la media y la desviación típica de ambas variables.
A la vista de los resultados, ¿son las medias diferentes?, ¿ha
aumentado la campaña el nivel de ventas?, ¿crees que los resultados
son estadísticamente significativos?
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Describir->Datos Numéricos->Análisis Multivariado}.
\item Seleccionar las variables \variable{Antes} y \variable{Después} y pasarlas al campo \texttt{Datos}.
\item Hacer click en el botón \boton{Tablas} y activar la casilla \opcion{Resumen Estadístico}.
\item A la vista de los resultados es claro que las medias son
diferentes y que la media de las ventas después de la campaña es
superior a la de antes de la misma, pero sin realizar un análisis de tipo inferencial, en lugar del descriptivo que hemos realizado, no
se puede afirmar que los resultados sean estadísticamente
significativos o no.
\end{enumerate}}
\end{indicacion}

\item Obtener el intervalo de confianza para la diferencia de medias entre ambas variables con un nivel de
significación $0.05$.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Comparar->Dos Muestras->Muestras Pareadas}.
\item Seleccionar la variable \variable{Después} en el campo \texttt{Muestra 1} y la variable \variable{Antes}
en el campo \texttt{Muestra 2} del cuadro de diálogo.
\item Hacer click en el botón \boton{Tablas} y activar la casilla \opcion{Intervalos de Confianza}.
\item Hacer click con el botón derecho del ratón sobre los
resultados obtenidos y seleccionar \opcion{Opciones de Ventana}.
\item Introducir el nivel de confianza deseado, esto es $95 \%$, en el campo
\texttt{Nivel de Confianza}.

\end{enumerate}}
\end{indicacion}

\item Crear la variable \variable{Diferencia} como \variable{Después-Antes} y calcular el intervalo de confianza para
la media de dicha variable con un nivel de significación $0.05$.
Comparar el intervalo obtenido con el del apartado anterior.
\begin{indicacion}{
\begin{enumerate}
\item Crear una variable y llamarla \variable{Diferencia}.
\item Seleccionar la variable \variable{Diferencia} haciendo click con el botón izquierdo del ratón
en el encabezamiento de la columna correspondiente.
\item Hacer click con el botón derecho del ratón sobre la columna seleccionada y activar la
casilla \opcion{Generar Datos}.
\item Introducir \variable{Después-Antes} en el campo \texttt{Expresión}.
\item Seleccionar el menú \menu{Describir->Datos Numéricos->Análisis de Una Variable}.
\item Introducir la variable \variable{Diferencia} en el campo \texttt{Datos} del cuadro de diálogo.
\item Hacer click en el botón \boton{Tablas} y activar la casilla \opcion{Intervalos de Confianza}.
\item Hacer click con el botón derecho del ratón sobre los
resultados obtenidos y seleccionar \opcion{Opciones de Ventana}.
\item Introducir el nivel de confianza deseado en el campo \texttt{Nivel de Confianza}.
\item Se observa que el intervalo obtenido coincide con el del apartado anterior.
\end{enumerate}}
\end{indicacion}

\item ¿Existen pruebas suficientes para afirmar con un 95\% de confianza que la campaña de publicidad
ha aumentado las ventas?
\begin{indicacion}{
No, porque el intervalo de confianza obtenido tiene una parte
negativa.}
\end{indicacion}



\item ¿Y si cambiamos los dos últimos datos de la variable
\variable{Después} y ponemos 190 en lugar de 182 y 165 en lugar de
145?. Observar qué le ha sucedido al intervalo para la diferencia de
medias y darle una explicación.

\begin{indicacion}{
\begin{enumerate}
\item Cambiar los datos anteriores y calcular el intervalo para la
diferencia de medias según lo indicado en el apartado $c)$.
\item El intervalo para la diferencia de medias está íntegramente dentro de la zona
positiva, por lo que con un nivel de confianza del 95\% la
diferencia de las medias es positiva, y por consiguiente, la media
de ventas después de la campaña de publicidad es mayor que antes.
\item Esto es debido a que hemos aumentado en dos farmacias la cifra
de ventas después de la campaña con respecto a los datos empleados
inicialmente.
\end{enumerate}}
\end{indicacion}


\end{enumerate}


\item  Una central de productos lácteos recibe diariamente la leche de dos granjas $X$ e $Y$. Para analizar la
calidad de la leche, durante una temporada, se controla el contenido de materia grasa de la leche que proviene
de ambas granjas, con los siguientes resultados:
\[
\begin{array}{ll|ll}
\multicolumn{2}{c|}{X} & \multicolumn{2}{c}{Y} \\
\hline
0.34 & 0.34 & 0.28 & 0.29 \\
0.32 & 0.35 & 0.30 & 0.32 \\
0.33 & 0.33 & 0.32 & 0.31 \\
0.32 & 0.32 & 0.29 & 0.29 \\
0.33 & 0.30 & 0.31 & 0.32 \\
0.31 & 0.32 & 0.29 & 0.31 \\
 &  & 0.33 & 0.32 \\
 &  & 0.32 & 0.33 \\
\end{array}
\]

\begin{enumerate}

\item Crear las variables \variable{Materia grasa} y \variable{Granja}, e introducir los datos de la muestra.
\begin{indicacion}{
En la variable \variable{Materia grasa} introducir todos los datos
de contenido de materia grasa de la leche, tanto de la granja $X$
como de la $Y$, y en la variable \variable{Granja} poner $X$ ó $Y$
según la granja de procedencia.}
\end{indicacion}



\item Calcular el intervalo de confianza con un 95\% de confianza para la diferencia en el contenido
medio de materia grasa de la leche procedente de ambas granjas.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Comparar->Dos Muestras->Muestras Independientes}.
\item Seleccionar la opción \opcion{Columnas de Códigos y Datos} e introducir la variable \variable{Materia Grasa}
en el campo \texttt{Datos} y la variable \variable{Granja} en el
campo \texttt{Código de Muestra} del cuadro de diálogo.
\item Hacer click en el botón \boton{Tablas} y activar la casilla \opcion{Comparación de Medias}.
\item Hacer click con el botón derecho del ratón sobre los
resultados obtenidos y seleccionar \opcion{Opciones de Ventana}.
\item Introducir el nivel de significación deseado, es decir el $5 \%$, en el campo \texttt{Alfa}.
\end{enumerate}}
\end{indicacion}

\item Interpretar el intervalo de confianza obtenido en el apartado anterior.
\begin{indicacion}{
El intervalo para la diferencia de medias está íntegramente dentro
de la zona positiva, por lo que con un nivel de confianza del 95\%
la diferencia de las medias es positiva, y por consiguiente, el
contenido medio en grasa es mayor en la leche procedente de la
granja $X$.}

\end{indicacion}

\item De las fórmulas vistas en teoría, ¿cuál crees que utiliza el programa para el cálculo del intervalo
del primer apartado, la que supone igualdad de varianzas en ambas muestras o la que no da por supuesta dicha igualdad?
\begin{indicacion}{
\begin{enumerate}
\item En la ventana de resultados obtenida en el apartado $b)$ al
activar la casilla \opcion{Comparación de Medias}, hacer click con
el botón derecho del ratón y seleccionar \opcion{Opciones de
Ventana}. En ella se puede elegir entre hacer la comparación de
medias suponiendo la igualdad de varianzas o sin suponerla, sin más
que marcar la casilla \texttt{Asumir Sigmas Iguales} o no marcarla.
Para optar por una u otra alternativa se deberían comparar las
desviaciones típicas como se indica a continuación.
\item En la misma ventana de resultados del apartado anterior hacer
click en el botón \boton{Tablas} y activar la casilla
\opcion{Comparación de Desviaciones Estándar} para obtener el
intervalo de confianza para el cociente de varianzas (razón de varianzas).
\item Como el intervalo obtenido contiene el valor $1$, no existe diferencia
estadísticamente significativa entre las desviaciones típicas para
un nivel de confianza del $95\%$, por lo que se debería utilizar la
que supone igualdad de varianzas.
\end{enumerate}}
\end{indicacion}

\end{enumerate}

\item En una encuesta realizada en una facultad, sobre si los
alumnos utilizan habitualmente (al menos una vez a la semana) la
biblioteca de la misma, se han obtenido los siguientes resultados,
en los que se ha anotado 1 si la respuesta ha sido positiva y 0 si
ha sido negativa:
\begin{center}
\begin{tabular}{l}
\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|}
\hline
\multicolumn{1}{|c|}{Alumno} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{2} & \multicolumn{1}{c|}{3} & \multicolumn{1}{c|}{4} & \multicolumn{1}{c|}{5} & \multicolumn{1}{c|}{6} & \multicolumn{1}{c|}{7} & \multicolumn{1}{c|}{8} & \multicolumn{1}{c|}{9} & \multicolumn{1}{c|}{10} & \multicolumn{1}{c|}{11} & \multicolumn{1}{c|}{12} & \multicolumn{1}{c|}{13} & \multicolumn{1}{c|}{14} & \multicolumn{1}{c|}{15} & \multicolumn{1}{c|}{16} & \multicolumn{1}{c|}{17} & \multicolumn{1}{c|}{18} \\
\hline
\multicolumn{1}{|c|}{Sexo} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} \\
\hline
\multicolumn{1}{|c|}{Respuesta} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{0} \\
\hline
\end{tabular}\\
\\
\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|}
\hline
\multicolumn{1}{|c|}{Alumno} & \multicolumn{1}{c|}{19} & \multicolumn{1}{c|}{20} & \multicolumn{1}{c|}{21} & \multicolumn{1}{c|}{22} & \multicolumn{1}{c|}{23} & \multicolumn{1}{c|}{24} & \multicolumn{1}{c|}{25} & \multicolumn{1}{c|}{26} & \multicolumn{1}{c|}{27} & \multicolumn{1}{c|}{28} & \multicolumn{1}{c|}{29} & \multicolumn{1}{c|}{30} & \multicolumn{1}{c|}{31} & \multicolumn{1}{c|}{32} & \multicolumn{1}{c|}{33} & \multicolumn{1}{c|}{34} \\
\hline
\multicolumn{1}{|c|}{Sexo} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{H} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{M} & \multicolumn{1}{c|}{H}  \\
\hline
\multicolumn{1}{|c|}{Respuesta} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{0} \\
\hline
\end{tabular}
\end{tabular}
\end{center}

\begin{enumerate}
\item Crear las variables \variable{Respuesta} y \variable{Sexo} e introducir los datos de la muestra.

\item Calcular el intervalo de confianza para la diferencia de proporciones de visitas a la biblioteca
de hombres y mujeres. ¿Se puede afirmar con un 95\% de confianza que las mujeres visitan la biblioteca
más a menudo que los hombres?
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Comparar->Dos Muestras->Muestras Independientes}.
\item Seleccionar la opción \opcion{Columnas de Códigos y Datos} e introducir la
variable \variable{Respuesta} en el campo \texttt{Datos} y la
variable \variable{Sexo} en el campo \texttt{Código de Muestra} del
cuadro de diálogo.
\item Hacer click en el botón \boton{Tablas} y activar la
casilla \opcion{Comparación de Desviaciones Estándar}, para obtener
el intervalo de confianza para el cociente de varianzas.
\item Como el intervalo obtenido contiene el valor $1$, no existe diferencia
estadísticamente significativa entre las desviaciones típicas para
un nivel de confianza del $95\%$, por lo que a ese nivel se pueden
suponer iguales.
\item Hacer click en el botón \boton{Tablas} y activar la casilla \opcion{Comparación de Medias}.
\item Hacer click con el botón derecho del ratón,  seleccionar \opcion{Opciones de
Ventana} y marcar la casilla \texttt{Asumir Sigmas Iguales}.
\item Como el intervalo de confianza obtenido está íntegramente en
la zona negativa, la diferencia entre las medias es estadísticamente
significativa con un nivel de confianza del $95\%$, pudiéndose
afirmar con ese nivel de confianza que las mujeres visitan la
biblioteca más a menudo que los hombres.

\end{enumerate}}
\end{indicacion}
\end{enumerate}


\item Un profesor universitario ha tenido dos grupos de clase a lo
largo del año; uno con horario de mañana y otro de tarde. En el de
mañana, sobre un total de 80 alumnos, han aprobado 55, mientras que
en el de tarde, sobre un total de 90 alumnos, han aprobado 32.

\begin{enumerate}
\item Calcular el intervalo para la diferencia de proporciones de
alumnos aprobados en cada grupo.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Comparar->Dos Muestras->Pruebas de Hipótesis}.
\item Seleccionar la opción \opcion{Proporciones Binomiales} en el campo \texttt{Comparar} del cuadro de diálogo.
\item Introducir las proporciones de aprobados en los grupos de mañana y de tarde en los
campos \texttt{Proporción Muestra 1} y \texttt{Proporción Muestra 2} respectivamente.
\item Introducir también los tamaños muestrales de los grupos de mañana y de tarde en los
campos \texttt{Tamaño Muestra 1} y \texttt{Tamaño Muestra 2}
respectivamente.
\end{enumerate}}
\end{indicacion}

\item Suponiendo que el resto de los factores (temario,
complejidad de examen, nivel previo de conocimientos, expediente
académico previo de los alumnos,...) no han influido en el
aprobado o suspenso en la asignatura, ¿se puede concluir que el
factor horario ha sido determinante en la proporción de
suspensos?
\begin{indicacion}{

Como el intervalo de confianza obtenido está íntegramente en la zona
positiva, la diferencia entre las proporciones de aprobados es
estadísticamente significativa con un nivel de confianza del $95\%$,
por lo que se puede concluir que el factor horario es determinante
en la proporción de aprobados, siendo ésta superior en el grupo de
mañana.

}
\end{indicacion}

\end{enumerate}
\end{enumerate}

\section{Problemas}
\begin{enumerate}[leftmargin=*]

\item  Se ha realizado un estudio para investigar el efecto del
ejercicio físico en el nivel de colesterol en la sangre. En el
estudio participaron once personas, a las que se les midió el
nivel de colesterol antes y después de desarrollar un programa
de ejercicios. Los resultados obtenidos fueron los siguientes:
\begin{center}
\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|}
\hline
Nivel Previo & 182 & 232 & 191 & 200 & 148 & 249 & 276 & 213 & 241 & 280 & 262 \\
\hline
Nivel Posterior & 198 & 210 & 194 & 220 & 138 & 220 & 219 & 161 & 210 & 213 & 226 \\
\hline
\end{tabular}
\end{center}

\begin{enumerate}

\item Hallar el intervalo de confianza del 90\% para la
diferencia del nivel medio de colesterol antes y después del
ejercicio.

\item A la vista de dicho intervalo, ¿se concluye que el ejercicio
físico disminuye el nivel de colesterol con una confianza del 90\%?

\end {enumerate}

\item Dos químicos $A$ y $B$ realizaron respectivamente 14 y 16 determinaciones de la actividad radiactiva de
una muestra de material. Sus resultados, expresados en Curios,
fueron los siguientes:
\[
\begin{array}{ll|ll}
\multicolumn{2}{c|}{A} & \multicolumn{2}{c}{B} \\
\hline
263.36 & 254.68 & 286.53 & 254.54 \\
248.64 & 276.32 & 284.55 & 286.30 \\
243.64 & 256.42 & 272.52 & 282.90 \\
272.68 & 261.10 & 283.85 & 253.75 \\
287.33 & 268.41 & 252.01 & 245.26 \\
287.26 & 282.65 & 275.08 & 266.08 \\
250.97 & 284.27 & 267.53 & 252.05 \\
 &  & 253.82 & 269.81 \\
\end{array}
\]
\begin{enumerate}
\item  Calcular el intervalo de confianza para la media de la
diferencia de actividad detectada por cada uno de los químicos con
un 95\% de confianza.

\item ¿Se puede decir que existen diferencias significativas en la
media de actividad detectada por cada químico?
\end{enumerate}


\item En una encuesta realizada en los dos hospitales de una ciudad, se
pregunta a los pacientes hospitalizados cuando salen del hospital si
consideran que el trato recibido ha sido correcto. En el primero de
ellos se pregunta a 100 pacientes y 70 responden que sí, mientras
que en el segundo, se pregunta a 150 pacientes y 80 responden que
sí.

\begin{enumerate}

\item Calcular el intervalo de confianza para la diferencia de
proporciones de pacientes satisfechos con el trato recibido.

\item ¿Hay pruebas significativas de que el trato recibido en un
hospital es mejor que en el otro?
\end{enumerate}

\end{enumerate}

\newpage
\mbox{}
